解读 不 显著 结果 : BF 500 个 实证 研究 的 量化 分 析 
TEER 宋 琼 雅 ， 许 后 培 ” 贾 梢 梢 ” 陆 春 雷 ” 陈 嘻 ” 戴 紫 旭 ” 黄 之 表 ” 李 振江 
AED" DUE” WRP” KEE REK “AE Ee 


(中 山大 学 心理 学 系 ， 广 州 ，510006; 


2 


ani 
O 


国 科学 院 行为 科学 重点 实验 室 ( 中 国 科学 院 心理 研究 所 )， 北 京 100101; 


3 中 国 科 学 院 大 学 心理 学 系 ,北京 100049; 


4 上 海 体 育 学 院 心 理学 院 ， 上 海 ，200438; 


5 浙江 师范 大 学 教师 教育 学 院 ， 金 华 ，321000; 


6A), E, 200122; 


7 华南 师范 大 学 心理 学 院 ， 广 州 ，510631; 


8 Tisch School of the Arts, New York University, New York 11201, the United States; 


9 苏州 大 学 教育 学 院 ， 苏 州 ，215123; 


10 黑龙 江 大 学 教育 科学 研究 院 ， 哈 尔 滨 ，150080; 


1 北京 大 学 心理 与 认 知 科 学 学 院 ， 北 京 ，100871; 


2 华东 师范 大 学 心理 与 认 知 科学 学 院 ， 上 海 ，200063; 


3 西南 大 学 心理 学 部 ， 重 庆 ，400715; 


14 杭州 师范 大 学 认 知 与 脑 疾病 研究 中 心 ， 杭 州 ，311121; 


O 15 Leibniz Institute for Resilience Research, 55131 Mainz, Germany ) 


TE: 本 研究 参考 CREDIT 对 于 研究 者 贡献 的 分 类 标准 Chttps://casrai.org/credit/), XT 14 
个 贡献 领域 : 其 中 王 表 参与 了 数据 管理 、 数 据 分 析 、 研 究 实施 、 研 究 方案 设计 、 资 源 支 持 、 
初稿 撰写 和 论文 审阅 与 修订 工作 ; 宋 琼 雅 . 许 岳 塔 和 陆 春雷 参与 了 研究 实施 、 研 究 方案 设计 、 


资源 支持 和 论文 审阅 与 修订 工作 ;机 梢 彬 参与 了 研究 实施 、 研 究 方案 设计 、 资 源 支 持 、 可 视 
化 、 结 果 验 证 和 论文 审阅 与 修订 工作 ;陈曦 、 戴 紫 胆 、 黄 之 明 、 李 振江 、 林 景 希 、 罗 婉 莹 、 
施 赛 男 和 张 莹 莹 参与 了 研究 实施 工作 ; 臧 玉 峰 、 左 西 年 参与 了 研究 指导 及 论文 审阅 与 修订 工 


收 稿 日 期 :2017-7-14 


通信 作者 : 胡 传 鹏 ，E-mail: hcp4715@hotmailcom 


202003.00056v2 


chinaXiv 


作 ， 胡 传 鹏 参与 了 概念 构建 、 研 究 实施 、 研 究 方案 设计 、 项 目 管理 、 研 究 指导 和 论文 审阅 与 
修订 工作 。 每 位 作者 的 贡献 如 下 图 所 示 。 


概念 构建 数据 管理 数据 分 析 研究 实施 研究 方案 设计 。 项 目 管理 资源 支持 研究 指导 结果 验证 可 视 化 DBRS 。。 论文 审阅 和 修订 


通讯 作者 : tA fe, Email: hcp4715@hotmail.com 


chinaXiv:202003.00056v2 


摘要 不 显著 结果 (如 ，p > 0.05) 在 心理 学 研究 中 十 分 常见 ， 容 易 被 误解 为 接受 零 假 设 的 
证 据 ， 并 可 能 导致 分 组 匹配 研究 的 错误 推断 或 者 忽视 被 小 样本 的 不 显著 结果 掩盖 的 真实 效 
应 。 但 国内 目前 尚 无 实证 研究 对 不 显著 结果 的 普遍 性 及 其 解读 进行 调查 。 本 研究 调查 500 
篇 中 文 心理 学 实证 研究 ， 统 计 其 摘要 中 出 现 与 不 显著 结果 相关 的 阴性 陈述 的 频率 ， 判 断 并 
统计 基于 阴性 陈述 的 推 师 准确 性 ， 并 使 用 贝 叶 斯 因子 对 不 显著 结果 中 包含 1 值 的 研究 进行 
重新 评估 。 结 果 表明 ，36% 的 摘要 提 及 不 显著 结果 ， 共 包含 236 个 阴性 陈述 。 其 中 ，41% 
的 阴性 陈述 对 不 显著 结果 的 解读 出 现 偏差 《如 ， 解 读 为 支持 了 零 假 设 )。 对 包含 :+ 值 的 研究 
进行 贝 叶 斯 因子 分 析 ， 结 果 表 明 仅 有 5.1% 的 不 显著 结果 可 以 提供 强 证 据 支 持 零 假设 (BFo1 > 
10)。 与 先前 对 国际 心理 学 期 刊 的 调查 结果 相 比 30% 的 摘要 包含 阴性 陈述 ;70% 的 阴性 陈 
述 对 不 显著 结果 的 解读 有 误 )， 中 文 心理 学 期 刊 中 报告 不 显著 结果 的 比例 以 及 对 不 显著 结果 
的 解读 正确 率 均 更 高 。 但 国内 研究 者 仍 需 进一步 加 强 对 不 显著 结果 的 认识 ， 推 广 适 于 评估 
不 显著 结果 的 统计 方法 。 


关键 词 不 显著 结果 ; 零 假设 显著 性 检验 ， 贝 叶 斯 因子 ; 元 研究 
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基于 正确 的 统计 推断 方法 是 从 数据 中 得 到 正确 结论 的 重要 前 提 之 一 。 当 前 科研 实践 中 ， 主 导 的 


统计 推断 方法 是 零 假 设 显著 性 检验 (Null hypothesis significance testing, NHST)(American Psychological 


Association, 2010; Wasserstein & Lazar, 2016)。 在 此 框架 下 ， 研 究 者 通常 根据 p 值 大 小 做 出 是 否 拒 绝 
零 假设 的 二 分 决策 。 具 体 而 言 ， 当 p 值 小 于 某 个 预 设 的 a 立 值 时 (通常 设 为 0.05), 研究 者 可 以 拒绝 零 
假设 从 而 接受 备 择 假 设 ， 而 当 p 值 大 于 此 闵 值 时 ， 研 究 者 无 法 拒绝 零 假设 。 然 而 ， 无 法 拒绝 零 假设 


存在 两 种 可 能 : 一 是 数据 支持 零 假设 ， 即 效应 不 存在 (evidence of absence); 二 是 缺乏 充分 的 统计 功 


效 , 因而 未 检测 到 真实 存在 的 效应 (Dienes, 2014, 2016), 即 没有 证 据 表明 效应 存在 (absenc 


eofevidence)。 


研究 者 很 早 就 意识 到 NHST 的 局 限 性 (Amrhein et al., 2019; Edwards et al., 1963; Gigerenzer et al., 


2004; Meehl, 1967; Miller, 2011; Nickerson, 2000; Ziliak & McCloskey, 2008)。 一 方面 ， 基 于 NHST 的 
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的 发 表 偏 倚 (publication bias)( 孙 红 卫 等 , 2012). Fanelli (2012) 分 析 各 学 科 的 文献 后 发 现 ， 


种 学 科 发 


表 的 论文 中 , 阳性 /显著 结果 的 比例 均 大 于 阴性 /不 显著 结果 的 比例 , 而 心理 学 论文 中 阳性 结果 的 比例 
高 达 95% 以 上 。 这 种 发 表 偏 倚 可 能 会 导致 研究 者 对 真实 效应 的 错误 估计 (Algermissen & Mehler, 2018; 


Schafer & Schwarz, 2019)， 从 而 引发 心理 学 领域 的 可 重复 性 危机 (Baker, 2016; Ioannidis, 2005; Klein et 


al., 2014; Open Science Collaboration, 2015; 胡 传 鹏 等 ,2016)。 另 一 方面 ， 研 究 中 还 会 出 现 对 不 显著 结 


果 的 错误 解读 ， 即 尽管 p > 0.05 无 法 区 分 “数据 支持 零 假 设 ”与 “数据 不 足以 支持 或 


E 绝 原 假 设 ” 


这 两 种 情况 ， 但 研究 者 在 结论 表述 中 经 常 出 现 混 淆 ， 错 误 地 将 p > 0.05 作为 文 持 零 假设 的 证 据 ， 影 


响 结 论 的 可 信 度 (Greenland et al., 2016; X. Lyu et al., 2020; Z. Lyu et al., 2018; 胡 传 鹏 等 , 2 


2017). Lyu 等 人 (2020) 调 查 发 现 ，53% 的 研究 者 错误 地 认为 ， 当 p> 0.05 时 ， 数 据 支 持 


016; WAKA, 
了 零 假 设 。 


上 述 对 不 显著 结果 的 错误 解读 可 能 带 来 两 个 严重 的 后 果 。 第 一 ， 错 误 地 接受 零 假设 会 影响 对 随 


后 干预 效果 的 推 有 新 。 在 临床 试验 中 ， 研 究 者 多 使 用 卡 方 检验 或 独立 样本 上 检验 来 分 析 实 验 组 与 控 仙 
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组 在 一 些 混淆 变量 上 的 差异 (例如 性 别 、 年 龄 、 教 育 程度 )。 当 1 检验 的 p 值 大 于 0.05 时 (如 0.06)， 


wl 


究 者 可 能 认为 两 组 在 该 变量 上 没有 差异 ， 在 后 续 对 干预 效果 的 分 析 中 不 再 考虑 该 变量 的 影响 ， 忽 
视 了 该 变量 可 能 带 来 严 的 重 混淆 。 第 二 个 后 果 是 造成 对 阴性 结果 的 忽视 。 研 究 者 可 能 由 于 小 样本 等 
原因 缺乏 足够 的 检验 力 检测 到 实际 存在 的 效应 ， 进 而 得 到 不 显著 结果 (Button et al., 2013; Chen et al., 


2018)。 在 这 种 情况 下 ， 如 果 错 误解 读 不 显著 结果 ， 研 究 者 会 得 出 效应 不 存在 的 结论 ， 这 样 可 能 错失 


潜在 重要 的 效应 (Fiedler et al., 2012)。 例 如 ， 一 项 多 中 心 合 作 的 元 分 析 (meta-analysis， 也 译 为 荟 鞭 分 


析 ) 显 示 , 尽管 由 金森 病 患者 的 左 侧 壳 核 在 元 分 析 结 果 中 是 全 脑 最 异常 的 脑 区 ; 但 单个 中 
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心 的 结果 中 ， 
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于 检验 力 较 低 ， 只 有 2 个 
尽管 有 


P 心 的 壳 核 异常 在 ; 


行 多 重 比较 矫正 后 仍 达 到 显著 水 平 (Jia et al., 2018)。 
前 对 于 NHST 框架 下 不 显著 结果 的 讨论 逐渐 增多 (如 小 月 
论 与 方法 的 探讨 ， 缺 乏 实证 性 


Re, 2014; #4 
完 探讨 当前 
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HEY, 2016)， 但 是 大 


学 领域 发 对 
I 解读 情况 。Aczel 等 人 (2018) 回 顾 2015 年 发 表 在 Psychonomic Bulletin & Review, Journal of 
Experimental Psychology: General 和 Psychological Science | 


论文 中 不 显著 结果 的 


的 错误 解读 不 显著 结果 的 


此 外 ， 在 实际 
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等 人 (2018) 对 基于 t 检验 得 


间 设 计 的 组 间 匹 配 问题 ， 厂 


致 性 。 在 这 种 情况 下 ,天 


值 会 导致 错误 的 统计 推 


F 据 ， 错 误解 读 p 
中 一 个 理论 所 预测 的 差异 并 不 存在 ,， 即 支持 零 假 设 。 换 言 之 , 在 某 些 情境 下 , 证 实 “ 零 假设 为 真 ” 
究 者 所 想 要 达到 的 目标 。 这 一 目标 服务 于 于 
设 ， 从 而 促进 科学 理论 的 发 展 。 


由 于 NHST 无 法 为 零 假 设 提供 支持 ， 而 用 p > 0.05 为 零 假设 提供 支持 实际 上 是 错误 的 做 法 


上 的 412 篇 实证 研究 论文 ， 发 现 摘 要 中 包 
究 者 直接 阐明 效应 不 存在 或 者 提 及 不 显著 的 结果 〉 的 文章 接近 1/3， 这 其 中 有 72% 
“显著 结果 的 错误 解读 。 那 么 ， 在 国内 心理 学 领域 的 权威 期 刊 中 ， 是 否 也 存在 类 似 
4 情况 ? 
究 中 ， 研 究 者 有 时 确实 需要 证 实 零 效应 或 者 零 假设 为 真 。 如 前 所 述 ， 对 于 被 试 
究 者 需要 尽量 保持 实验 组 与 控制 组 在 
RE 


些 属性 上 《如 年 龄 、 性 别 ) 的 一 
要 能 够 为 “其 他 方面 没有 差异 ”这 个 零 假 设 提供 记 
fo AI, F 


究 者 也 有 可 能 需要 检验 两 个 相互 竞 


搜 的 理论 ， 用 实验 数据 说 明 


E 绝 或 者 证 否 


L H 


个 研究 假设 、 提 出 蔡 代 的 新 研究 假 


(Chuard etal.,2019)。 因 此 ， 研 究 者 需要 引入 合适 的 统计 方法 探 完 数据 支持 零 假 设 的 程度 ， 如 贝 叶 斯 


不 显著 结果 的 数据 进 


子 (Bayes factors, BFs)(Wagenmakers et al., 2018; Wagenmakers et al., 2011; 胡 传 鹏 等 , 2018)。Aczel 
设 的 程度 ， 结 果 表 明 在 这 些 不 显著 的 1 检验 结果 中 


中 


数据 支持 零 假 
3% 的 检验 能 够 得 到 较 强 的 订 

设 (BFo > 10)，71% 的 1 检验 仅 能 够 得 到 中 等 强度 的 证 据 支 持 零 假 设 (10 > BFo1 > 3)。 这 一 结果 

在 缺乏 恰当 的 统计 方法 的 情况 下 ， 研 究 者 可 


fie. 


EJE o 


发 展 与 教育 》 以 及 《心理 与 行为 研究 》) 在 2017 年 与 2018 年 发 表 的 实证 研究 论文 。 具体 而 
究 分 析 了 随机 抽取 的 500 篇 论文 


的 证 据 支 持 零 假设 。 这 
是 值得 探索 的 问题 。 理 


这 一 现象 能 进 一 


究 论 文中 不 显著 结果 解读 现状 的 实 训 


国内 心理 学 的 核心 期 刊 《心理 学 报 》《 心 理科 学 》、《 中 国 临 床 心理 学 杂志 》、 


步 计 算 其 贝 叶 斯 


因子 ， 进 而 订 
mi 
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ah 


F 据 支持 零 假 
能 忽视 了 一 个 重要 的 问题 


车 国内 心理 学 
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吉 果 表明 


多 


即 得 到 不 显著 结果 的 数据 无 


学 核心 期 刊 已 发 表 论 文中 是 否 存在 ， 也 
内 心理 学 研究 者 了 解 到 ， 错 误解 读 不 显著 结果 会 


EF 数据 ， 本 研究 参考 Aczel 等 人 (2018) 
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情况 和 错误 解读 的 比例 ， 通 过 计算 贝 


评估 其 支持 的 程度 。 之 后 ， 本 研 


究 还 对 比 了 中 文 核心 期 刊 和 国际 期 刊 中 对 于 不 显著 结果 解读 现状 的 差异 。 本 文 则 在 帮助 研究 者 意识 
到 对 不 显著 结果 出 现 误 读 的 普遍 性 ， 进 而 在 统计 推断 过 程 中 更 为 谨慎 细致 ， 避 人 免 错误 解读 的 发 生 。 


2 方法 
2.1 文章 抽样 


本 研究 选取 五 本 可 以 免费 下 载 全 文 的 国内 心理 学 核心 期 刊 , 分 别 是 《心理 学 报 》《 心 理科 学 》、 
《中 国 临 床 心理 学 杂志 》《 心 理发 展 与 教育 》 以 及 《心理 与 行为 研究 )。 这 些 期 刊 涵盖 了 不 同 领 域 的 
心理 学 研究 ， 如 认 知 心理 学 、 发 展 心理 学、 社会 心理 学 、 临 床 心理 学 等 。 随 后 ， 整 理 出 这 5 个 杂志 
于 2017-2018 年 发 表 的 所 有 实证 研究 论文 ， 即 包含 数据 分 析 部 分 的 论文 (不 包括 综述 、 元 分 析 或 者 
评论 等 )， 摘 录 各 个 杂志 中 2017-2018 年 所 有 实证 研究 论文 的 标题 、 出 版 时 间 、 卷 号 、 页 码 ， 并 为 每 
篇 文章 进行 编号 。 例 如 , 《心理 学 报 》 的 第 2 篇 文献 编码 为 1002 一 一 1 表示 心理 学 报 所 对 应 的 杂志 
ID 〈 不 同 杂 志 对 应 不 同 的 杂志 ID )，002 表示 该 文献 是 在 杂志 中 的 排序 。 具 体 编码 规则 见 
https://osf.io/mf42q/。 最 后 , 根据 每 个 期 刊 发 文 量 , 按 比 例 对 每 个 期 刊 的 实证 研究 论文 进行 随机 抽取 。 
《心理 学 报 》》《 心 理科 学 》《 中 国 临床 心理 学 杂志 》《 心 理发 展 与 教育 》 以 及 《心理 与 行为 研究 》 


的 实证 研究 数目 分 别 为 246、299、379、162、213, 总 共 1299 篇 文章 , 对 应 的 发 文 比 例 分 别 为 18.94%、 


23.02%、29.18%、12.47%、16.40%。 因 此 ， 随 机 抽取 的 文章 数目 分 别 为 :《 心 理学 报 》95 篇 、《 心 理 
科学 》115 篇 《中国 临床 心理 学 杂志 》146 篇 《心理 发 展 与 教育 》62 篇 《心理 与 行为 研究 》82 篇 。 
用 于 随机 抽取 文章 的 代码 见 https://osf.io/7my4g/。 


2.2 文章 编码 

有 码 过 程 分 为 三 步 ， 分 别 是 初步 编码 、 编 码 校对 和 分 类 编码 (图 1)。 在 初步 编码 中 ， 我 们 将 选 
择 的 500 篇 文献 随机 分 为 13 份 , 分 配给 13 名 编码 人 员 。 具体 编码 过 程 如 下 : 阅读 每 篇 文章 的 摘要 ， 

判断 其 是 否 包含 至 少 一 个 阴性 陈述 (Negative statement， 也 被 译 为 负 性 陈述 ， 两 者 为 同一 概念 ， 本 文 
统一 使 用 阴性 陈述 )。“ 阴 性 陈述 ”是 指 研究 者 直接 曾 明 效应 不 存在 〈 如 “ 王 预 组 和 控制 组 之 间 不 存 
在 差异 几 ， 或 者 提 及 不 显著 的 结果 《〈 如 “没有 证 据 文 持 干 预 组 和 控制 组 有 显著 差异 ”7。 如 果 搞 要 中 
不 包含 阴性 陈述 ， 那 么 编码 人 员 只 需要 摘录 文章 的 基本 信息 ， 包 括 文章 编号 、 引 用 、 文 章 链 接 以 及 
文章 类 型 。 如 果 摘 要 中 包含 至 少 一 个 阴性 陈述 ， 那 么 除了 以 上 基本 信息 之 外 ， 还 应 摘录 该 阴性 陈述 
以 及 正文 中 与 其 对 应 的 统计 检验 信息 。 其 中 ， 统 计 检验 信息 主要 包括 统计 检验 方法 ， 当 统计 检验 方 
法 为 1 检验 时 (包括 单 样 本 1 检验 ， 配 对 样本 1 检验 和 独立 样本 1 检验 )， 还 需要 摘录 1 值 ，p 值 和 样 
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本 量 


E o 


这 部 分 信息 用 于 后 续 的 贝 叶 斯 因子 计算 。 


为 确保 编码 内 容 的 准确 性 ， 在 完成 初次 编码 之 后 ， 重 新 分 配 文章 ， 进 行 编码 校对 工作 。 具 体 的 
编码 模板 和 编码 流程 可 以 参考 补充 材料 (https://osf.io/a39hb/)。 


得 到 文章 的 阴性 陈述 及 相应 的 统计 结果 数据 后 ， 先 由 6 名 编码 人 员 独 立 进行 阴性 陈述 的 分 类 编 
码 ， 随 后 共同 讨论 存在 分 此 的 分 类 编码 结果 ， 得 到 最 终 的 阴性 陈述 分 类 结果 。 有 具体 类 别 及 其 分 类 


准 见 表 1。 为 了 评估 
计算 了 Fleiss' kappa(Fleiss, 1971)。 该 指标 适用 于 编码 变量 为 分 类 变量 且 评 分 者 多 于 两 位 的 情况 。 


表 1. 阴性 陈述 的 具体 类 别 以 及 分 类 标准 


全 


"KES RI RA 


ie AN 
阳性 陈述 
分 关 


阴性 陈述 
分 类 核对 
数 掺 分 术 


EO a p 


BRER 


图 1 文献 编码 和 数据 提取 流程 


标 


6 名 评分 者 的 一 致 性 , 使 用 Gamer 等 人 (2019) 开 发 的 R & irr (RAL kappam.fleiss) 


类 别 分 类 标准 示例 
基于 频率 主义 的 正确 解读 根据 NHST 的 逻辑 对 不 显著 结果 进行 解读 ， 即 仅 说 明基 结果 表明 没有 证 据 支持 干预 组 和 控制 组 有 
结果 无 法 拒绝 零 假 设 ， 或 无 法 支持 备 择 假设 。 (显著 ) 差异 。 
基于 频率 主义 的 错误 解读 -推广 至 总 体 将 不 显著 结果 解读 为 支持 了 研究 中 样本 所 在 总 体 水 平 上 的 。” 结果 表明 干预 没有 效果 。 
零 假 设 。 
基于 频率 主义 的 错误 解读 -基于 当前 样本 ”将 不 显著 结果 解读 为 支持 了 研究 中 样本 中 的 零 假 设 。 结果 表明 干预 组 和 控制 组 之 间 没 有 差异 。 
基于 贝 叶 斯 因子 的 解读 利用 贝 叶 斯 因子 支持 零 假设 而 非 备 择 假 设 。 BFo > 10， 表 明 有 强 的 证 据 支 持 零 假设 。 


难以 判断 于 阴性 陈述 的 语言 措辞 ， 对 其 类 别 难 以 做 出 明确 判断 。 ” 除 恐 惧 情 绪 外 ， 基 本 表情 的 强度 越 大 被 试 对 


表情 的 识别 越 好 。 


2.3 贝 叶 斯 因子 分 析 

为 了 重新 评估 采用 t 检 验 ( 单 样本 1 检验 、 配 对 样本 1 检验 或 独立 样本 1 检验 ) 的 研究 数据 支持 
零 假设 的 程度 , 我 们 根据 文章 报告 的 统计 检验 参数 (样本 量 和 +t 值 ) 计 算 贝 叶 斯 因子 (Ly et al., 2018)。 
幢 叶 斯 因子 可 以 用 于 比较 数据 支持 备 择 假设 ( 瑟 ) 和 零 假设 (Ho) 的 相对 程度 (Wagenmakers et al., 2018), 
公式 如 下 : 


all 


P(Data|H) 
P(Data|H,) 


BFo1 的 下 标 1 表示 Mi, 0 表示 Ao. AL, BFAK Ao 与 本 对 比 的 贝 叶 斯 因子 ， 而 BFio 代表 
H 5 w 对 比 的 贝 叶 斯 因子 。 例 如 ，BFo1 = 10 表 示 在 零 假 设 Ho 为 真 的 条 件 下 出 现 当前 数据 的 概率 
© 是 备 择 假设 HA 为 真 的 情况 下 出 现 当 前 数据 概率 的 10 倍 。 基 于 Jeffreys(1961) 对 于 不 同 BFo 值 对 应 意 
义 的 划分 ，Wagenmakers 等 人 (2018) 明 确 了 不 同 大 小 的 BFo 对 应 的 意义 。 然 而 ， 这 种 划分 方式 仅 作 
参考 ， 研 究 者 需要 根据 特定 的 研究 问题 对 BFo 的 意义 进行 评估 。 

参考 Aczel 等 人 (2018) 的 研究 ， 使 用 Morey 等 (2015) 开 发 的 R 包 BayesFactos (函数 ttest.tstat 


NI 计算 BFor. 在 该 软件 的 默认 设置 中 , 使 用 双 尾 柯 西 分 布 (Cauchy distribution) 作 为 备 择 假设 的 先 验 (r = 


BFo1 = 


2 


= B, IRESI UAT CR EFL 力 。 先 前 研究 表明 这 种 备 择 假设 的 先 验 设置 是 比较 恰当 的 (Ly et 


al., 2016a, 2016b; Rouder etal.,2009)。 同 时 ， 为 了 探究 贝 叶 斯 因子 结果 的 稳定 性 ， 我 们 选择 不 同 的 先 
验 分 布 分 别 计算 贝 叶 斯 因子 。 其 中 一 种 先 验 分 布 为 正 态 分 布 Dienes, 2014); 相 比 于 默认 先 验 ， 正 态 
先 验 分 布 在 0 附近 的 概率 密度 相对 更 大 ， 因 此 得 到 的 效应 比 默 认 先 验 的 结果 更 接近 0。 另 一 种 先 验 
分 布 为 Gronau 等 人 (2019) 基 于 专家 意见 确定 的 效应 量 分 布 〈《 即 有 信息 的 先 验 )， 反 应 了 专家 对 于 效 
量 分 布 的 信念 (中 位 数 为 0.350)。 

考虑 到 研究 者 可 能 误 把 p 值 作为 支持 零 假设 的 证 据 ， 我 们 进一步 探究 了 p (AS BFo 之 间 的 关 
系 ， 即 计算 了 jp 值 与 BFo 之 间 的 相关 系数 r (Kendall’s ts)(Kendall & Gibbons, 1990) 及 其 对 应 的 95% 
可 信 区 间 (credible intervals, CIs)， 以 此 评估 p 值 是 否 与 BFoi 存在 较 强 的 相关 。 如 果 疡 值 与 BFoi 存在 
较 强 的 相关 ， 则 较 大 的 p 值 从 某 种 程度 上 可 以 支持 零 假设 ; 假如 p 值 与 BFoi 不 存在 较 强 的 相关 ， 尤 
其 是 当 p>0.05 时 与 BFol 的 相关 较 弱 ， 则 表明 使 用 较 大 疡 值 作 为 支持 零 假设 的 证 据 是 错误 。 由 于 所 
分 析 的 相关 关系 并 非 线性 关系 ， 我 们 选择 使 用 相关 系数 r。 我 们 使 用 Signorell(2017) 开 发 的 R 包 


DescTools, HHF pki žit KendallTauB 用 于 计算 t; 基 于 t+ 和 1 检验 数目 通过 函数 crediblelntervalKendallTau 
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(van Doorn et al., 2018) 计 算 对 应 的 95%CIs。 最 后 ， 由 于 大 样本 量 的 研究 往往 能 够 提供 更 强 的 证 据 ， 
我 们 也 采用 同样 的 方法 探索 了 BFo 与 样本 量 之 间 的 相关 关系 。 


3.1 不 显著 结果 在 中 文 文献 中 的 普遍 性 

本 次 分 析 的 结果 发 现 ， 在 500 篇 实证 文章 中 ，36% 的 文章 摘要 包含 了 至 少 一 个 阴性 陈述 。 其 
中 《心理 学 报 》 上 发 表 的 文章 摘要 包含 阴性 陈述 的 比例 最 高 〈43%)， 但 是 所 有 杂志 的 这 一 比例 都 
超过 了 30% OLE 2a) !。 这 一 结果 表明 ， 在 心理 学 研究 中 阴性 陈述 非常 普遍 。 


中 国 临 床 心理 学 杂志 ， EE 1. 5% (46/146) 
64% 
500 心理 学 报 ， E o 2% (41/95) 
(a) 摘要 
心理 科学 ， E oo (13/115) 
心理 与 行为 研究 ， HE) 32. 95% (23,62) 
心理 发 展 与 教育 E 383.7% (27/82) 
不 包含 阴性 陈述 
ER 0 50 100 150 
包含 阿 ' 生 陈述 
a 摘要 数量 
心理 学 报 
口 国 临 床 心 塌 学 杂志 
236 
(by 53% 阳性 陈述 心理 科学 
心理 与 行为 研究 
& 人 
心理 发 展 与 教育 
SES | RR 0 20 40 60 
难以 判断 阴性 陈述 数量 


E 频率 主义 汶 错 误解 读 一 基 二 当前 样本 
图 频率 主义 汶 错 误解 读 一 推广 至 总 


R 


2. (a) 阴性 陈述 在 不 同 杂 志 中 的 占 比 ，(b) 阴性 陈述 的 解读 分 类 在 不 同 杂志 中 的 占 比 ( 注 : 此 分 类 是 基于 解读 由， 见 正 文 关于 两 种 解读 


的 说 明 ) 


1 由 于 500 篇 文章 的 研究 类 型 包括 实验 、 准 实验 和 问卷 调查 ， 那 么 不 同 的 研究 类 型 中 出 现 阴性 陈述 的 比例 可 能 不 同 。 因 此 我 们 分 析 了 在 不 同 杂志 中 ， 不 同 研究 
类 型 下 阴性 陈述 分 布 情况 。 结 果 发 现 ， 实 验 〈45.8%) 和 准 实验 (36.2%) 在 阴性 陈述 中 占 比 相对 问卷 调查 (17.9%) 较 大 。 但 是 由 于 不 同 的 杂志 研究 侧重 的 研究 


方向 不 同 ， 使 得 不 同 研究 类 型 在 不 同 杂 志 中 的 占 比 差异 较 大 。 例 如 在 《心理 学 报信 《心理 科学 》 以 及 《心理 与 行为 研究 》 中 ， 实 验 类 的 文章 占 比 较 大 ， 均 超过 


50%。 而 在 《中 国 临床 心理 学 杂志 》 和 《心理 发 展 与 教育 》 中， 问卷 调查 和 准 实验 研究 的 比例 较 大 。 需 要 强调 的 是 ， 同 一 篇 文章 可 能 包含 多 个 研究 ， 因 此 我 们 同 


时 考虑 了 同一 个 研究 对 应 不 同 的 阴性 陈述 (例如 ， 阴 性 陈述 1: 研究 结果 没有 发 现 研究 1 中 的 变量 A 对 于 反应 时 有 显著 影响 ， 阴 性 陈述 2: 研究 结果 没有 发 现 研 


究 1 中 的 变量 B 对 于 反应 时 有 显著 影响 以 及 同一 个 阴性 陈述 对 应 不 同 研究 的 情况 例如， 在 阴性 陈述 研究 1 和 研究 2 中 都 没有 发 现 变量 A 对 于 反应 时 有 显著 


影响 )。 因 此 考虑 研究 类 型 的 阴性 陈述 的 总 数 为 301， 超 过 前 文 提 到 的 236 个 阴性 陈述 。 
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3.2 阴性 陈述 分 类 
对 于 六 位 评分 者 关于 阴性 陈述 分 类 的 一 致 性 分 析 结 果 表 明 ，Fleiss' kappa Jy 0.588 (p < 0.001). 
参考 Landis 和 Koch(1977) 对 Fleiss' kappa 含义 的 划分 ， 该 Fleiss' kappa 表示 中 等 强度 的 评分 者 一 致 


性 。 此 外 ， 作 者 共同 讨论 了 存在 分 收 的 分 类 编码 结果 ， 进 而 得 到 最 终 的 阴性 陈述 分 类 结果 。 因 | 


ik, BAY 


H 


ERRIRIK RBO SE o 


在 分 类 


自分 类 过 程 中 发 现 ， 阴 性 陈述 中 常 出 现 类 似 于 “没有 显著 的 差异 /效应 / 作 | 


”的 描述 (n= 


55)。 由 于 汉语 表达 的 模糊 性 ， 对 此 类 陈述 可 以 有 两 种 解读 : 解读 GD 认为 此 类 陈述 是 对 疡 < 0.05 的 


认为 此 类 陈述 是 支持 零 


段 设 的 描述 ， 


直接 解读 ， 即 “差异 没有 达到 统计 上 显著 水 平 ”， 分 类 为 “基于 频率 主义 的 正确 解读 ”; 


等 同 为 “没有 差异 /效应 /作用 ”， 


解读 @ 则 


即 分 类 为 “基于 频率 主义 的 


普 误解 读 -基于 当前 样本 ” 因此 ， 在 后 续 对 阴性 陈述 的 分 类 结果 的 
读 进 行 了 说 明 。 
我 们 将 “没有 显著 的 差异 /效应 /作用 ”的 陈述 分 类 为 基于 频率 主义 的 正确 解读 ， 对 236 个 阴性 


陈述 进行 分 类 。 结 果 显示 ， 基 于 频率 主义 的 正确 解读 占 53.4% (n = 126); 基于 频率 主义 的 错误 解读 


(n=65) 沙 在 子 类 别 基于 频率 


清晰 ， 难 以 明确 具体 的 阴 怕 


占 41.1% (n=97), #4 


述 中 ， 我 们 分 别 依据 这 两 种 解 


P 13.6% (n=32) 落 在 子 类 别 基 于 频率 主义 的 错误 解读 -基于 当前 样本 中 ，27.5% 
FE 义 的 错误 解读 -推广 至 总 体 中 。 此 外 还 有 5.5% (n= 13) 阴 性 陈述 表述 不 


陈述 类 别 ， 故 编码 为 “难以 判断 ” 具体 


类 别 在 各 个 杂志 中 的 分 布 见 图 


2b。 基 于 解读 @ 的 分 类 结果 见 脚注 ?2。Aczel 等 人 2018 年 的 研究 中 还 考虑 了 基于 贝 叶 斯 分 析 的 阴性 陈 
述 类 别 ， 但 是 我 们 并 未 发 现 从 属于 此 类 别 下 的 阴性 陈述 ， 即 在 这 些 文献 中 并 没有 使 用 贝 叶 斯 因子 评 


估 文 持 零 假设 的 程度 的 案例 ， 


3.3 贝 叶 斯 因子 分 析 


支持 零 假 设 的 证 据 。 因 此 ， 我 们 结合 上 检验 的 数据 蛋 


在 NHST 框架 下 , fh 


支持 零 假 设 的 程度 。 


检验 的 1 值 和 样本 量 ， 使 用 中 等 尺度 的 双 尾 柯 更 


在 所 有 统计 检验 中 ， 使 月 


日 上 检验 且 报告 了 上 检验 统计 量 和 检 


因此 在 本 研究 中 剔除 该 类 别 。 


究 者 只 能 根据 p 值 大 小 做 出 是 否 拒 绝 零 假设 的 二 元 决策 ， 因 而 无 法 得 到 
EE 新 计算 BFo1"， 进 而 评估 得 到 不 显著 结果 的 数据 


2 如 果 我 们 将 “没有 显著 的 差异 /效应 / 作 


频率 主义 的 正确 解读 和 基于 频率 3 


30.1% (n=71 


在 子 类 别 基于 


频率 


); 相对 的 ， 基 于 频率 主义 的 错误 解读 占 64.4% (n = 152), 


主义 的 错误 解读 -推广 至 总 体 中 。 


E 义 的 错误 解 - 基 于 当前 样本 这 两 个 类 别 的 阴性 陈述 数目 ， 不 影响 其 


”的 陈述 分 类 为 基于 频率 主义 的 错误 解读 -基于 当前 样本 ， 再 次 对 236 个 阴性 陈述 进行 分 类 。 解 读 的 改变 只 影响 基于 


fF 本 量 的 统计 检验 数目 为 39。 根 据 t 
分 布 (Cauchy distribution) 作 为 备 择 假设 的 先 验 计 算 


其 中 36.9% (n = 87) 落 在 子 类 别 基于 


余 两 类 的 陈述 分 类 。 结 果 显 示 ， 基 


频率 


频率 主义 的 正确 解读 占 


主义 的 错误 解读 -基于 当前 样本 中 ，27.5% (n = 65) 落 


BFo， 范 围 在 (0.51, 10.64). B24 Wagenmakers 等 人 (2018) 对 BFol 含义 的 划分 ， 以 1、3 和 10 为 临 
界 值 将 BFo 划分 为 “ 较 弱 的 证 据 支持 #1” “ 较 弱 的 证 据 支 持 Ho”, “PAP REREAIUEDE CHE Ho” 和 

“ 强 的 证 据 支 持 Ho”. SERA, 39 个 上 检验 中 有 2.6%(n = 1) 的 BFo 表明 有 较 弱 的 证 据 支 持 Hr 
33.3%(n = 13) 的 BFo 表明 有 较 弱 的 证 据 支 持 Ho, 59%(n = 23) 的 BFo 表明 有 中 等 程度 的 证 据 支 持 
Ho, MAA 5.1%(n = 2) 的 BFo 表明 有 强 的 证 据 支 持 Ho。 换 言 之 ， 如 果 作者 在 原文 中 做 出 了 支持 
Ho HEMT, Jl) BFo 表明 这 些 检验 中 只 有 一 半 左 右 有 中 等 或 强 的 证 据 文 持 Ho。 因 此 ， 研 究 者 基于 p 
值 推断 Ho 为 真是 不 恰当 的 。 

为 了 验证 结果 的 稳健 性 ， 避 免 先 验 设 定 对 结果 造成 影响 ， 我 们 分 别 使 用 正 态 先 验 和 有 信息 先 验 
新 计算 贝 叶 斯 因子 。 不 同 先 验 设 置 下 BFo 的 分 布 如 图 3a 所 示 。 基 于 正 态 先 验 , BFo 的 范围 为 (0.45， 
6.00); 其 中 有 15.4%(n=6) 的 BFo 表明 有 较 弱 的 证 据 支 持 H1，64.1%(n=25) 的 BFo 表明 有 较 弱 的 证 
HSF Ho, 20.5%(n = 8) 的 BFo 表明 有 中 等 程度 的 证 据 支 持 Ho。 而 基于 有 信息 先 验 ，BFoi 范围 为 
(0.41, 21.69); 其 中 20.5%(n = 8) 的 BFo 表明 有 较 弱 的 证 据 支持 H 53.8% (n = 21) 的 BFo 表明 有 较 
弱 的 证 据 支 持 Ho, 17.9%(n = 7) 的 BFo 表明 有 中 等 程度 的 证 据 支 持 Ho, MRA 7.7%(n = 3) 的 BFo 
表明 有 强 的 证 据 支 持 Ho. 
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3. (a) 不 同 先 验 设置 下 BFo 的 分 布 及 含义 ，(b) 默认 先 验 下 的 BFo 5 p 值 的 关系 ;(c) 默认 先 验 下 的 BFo 与 样本 量 的 关系 


H 


注 : 针对 同一 个 样本 可 能 存在 多 个 BFo 值 ， 例 如 样本 量 为 138 的 样本 对 应 多 个 BFo1。 


研究 进一步 探究 先 验 设 置 对 于 阴性 陈述 分 类 的 影响 。 结 果 表 明 ， 将 默认 先 验 更 改 为 有 信息 先 验 
时 ，BFo 所 对 应 的 含义 发 生 更 改 的 比例 为 60%(n=23); 而 将 默认 先 验 更 改 为 正 态 先 验 时 ，BFol 所 对 
应 的 含义 发 生变 化 的 比例 为 61.5% = 24)。 这 说 明 先 验 分 布 的 设置 对 于 BFo 所 对 应 的 含义 有 较 大 影 
响 ， 研 究 者 在 计算 BFo 时 需要 谨慎 选择 恰当 的 先 验 分 布 。 

最 后 ， 我 们 对 于 贝 叶 斯 因子 进行 了 探索 性 的 分 析 ， 分 别 探究 BFo 与 p 值 以 及 BFo 与 样本 量 的 
相关 关系 。 由 于 使 用 1 检验 且 报 告 了 t 检 验 统计 量 和 样本 量 的 统计 检验 数目 仅 为 39， 本 研究 的 相关 
结果 仪 供 参 考 ， 需 要 后 续 研 究 以 验证 结果 的 可 靠 性 。 为 了 探究 p 值 与 对 应 的 BFo 的 相关 关系 ,我 们 
绘制 了 p 值 与 BFoi 的 散 点 图 (图 3b)， 并 计算 了 相关 系数 t 及 其 对 应 95% 可 信 区 间 。 结 果 显 示 , p 值 
与 BFo 的 相关 系数 +t 为 0.527， 其 95%CI 为 [0.282, 0.687]; 说 明 p 值 越 大 ， 对 应 的 BFo 值 也 越 大 。 
然而 ， 从 图 3b 可 以 看 出 ， 相 关 关 系 主要 受到 较 小 的 p 值 (p < 0.2) 与 BFo 关系 的 影响 ， 随 着 p 值 增 
K, BFo 的 变化 趋 近 平 绥 。 因 此 ， 该 结论 的 合理 性 需要 后 续 研 究 进 行 探讨 。 

同样 , 研究 分 析 了 样本 量 与 BFo 之 间 的 关系 (图 3c)。 结果 表明 ,样本 量 与 BFo 之 间 的 相关 系数 
Tt 为 0.243，95% 可 信和 区间 为 [0.018, 0.431]， 说 明 BFo 与 样本 量 的 相关 不 强 。 由 图 3c 同样 可 以 看 出 ， 
随 着 样本 量 的 增加 ，BFo 的 变化 并 不 明显 。 然而 , 样本 量 的 范围 主要 在 13 到 138 之 间 ， 只 有 个 别 研 


究 样 本 量 超过 300; 因 此， 结论 的 准确 性 还 有 待 进一步 验证 。 


lin 


4 讨论 

本 研究 对 500 篇 随机 选取 的 中 文 心理 学 实证 研究 论文 进行 分 析 ， 摘 录 所 有 出 现在 摘要 部 分 的 阴 
性 陈述 ， 并 且 摘 取 与 阴性 陈述 相关 的 统计 量 、 样 本 量 重新 计算 贝 叶 斯 因子 ， 则 在 探 完 心理 学 中 文 核 
© 心 期 刊 中 实证 论文 不 显著 结果 的 普遍 性 及 其 解读 的 正确 程度 ， 并 与 国际 期 刊 的 现状 进行 比较 。 

在 阴性 陈述 出 现 的 普遍 性 上 ， 我 们 发 现 有 36% 的 论文 摘要 (n = 180) 中 包含 了 阴性 陈述 ， 即 研究 
者 直接 阐明 效应 不 存在 或 者 提 及 不 显著 的 结果 。 例如 , 对 于 发 表 在 《心理 学 报 》 上 的 实证 研究 论文 ， 
摘要 中 包含 阴性 陈述 的 比例 超过 了 40%。 而 Aczel 等 人 (2018) 回 顾 了 发 表 在 国际 核心 期 刊 上 


(Psychonomic Bulletin & Review, Journal of Experimental Psychology: General Fil Psychological Science) 
的 实证 研究 后 ， 发 现在 摘要 部 分 提 及 阴性 陈述 的 文章 比例 为 32%; 这 一 比例 低 于 我 们 对 国内 期 刊 进 
行 调查 统计 后 得 到 的 结果 。 结合 Aczel 等 人 (2018) 的 研究 , 本 研究 的 结果 表明 不 显著 结果 在 心理 学 研 
究 中 不 可 或 缺 ,研究 者 需要 不 显著 结果 来 辅助 其 进行 推断 ;尤其 是 在 实验 研究 中 ( 即 Aczel 等 人 (2018) 
所 分 析 的 主要 研究 类 型 )， 阴 性 陈述 出 现 的 比例 高 达 45.8%。 

在 对 不 显著 结果 的 解读 正确 率 上 ， 虽 然 41.1% 陈 述 中 存在 对 不 显著 结果 的 错误 解读 (将 “无 显 


著 差 异 ” 解 读 为 正确 表述 方式 ， 即 解读 @)， 但 Aczel 等 人 (2018) 的 结果 表明 国际 期 刊 中 错误 解读 不 
显著 结果 的 比例 高 达 72%。 即 使 我 们 将 国内 研究 者 常用 的 表述 “无 显著 差异 ”作为 错误 表述 (解读 
QF: 64.4%)， 错 误解 读 的 比例 仍然 低 于 国际 期 刊 中 的 比例 。 这 一 结果 表明 ， 虽 然 国 内 研究 者 与 国 
际 同行 相似 ， 对 不 显著 结果 的 错误 解读 十 分 普遍 ， 但 表现 在 文章 中 的 错误 解读 比例 仍然 低 于 国际 心 
理学 期 刊 中 的 比例 。 值 得 注意 的 是 ， 基 于 不 同 解读 的 分 类 结果 相差 20% 以 上 ， 这 提示 研究 者 需要 对 
此 类 涉及 统计 推断 的 表述 进行 明确 清晰 的 表达 。 

此 外 ,， 贝 叶 斯 因子 分 析 的 结果 发 现 , 即便 考虑 了 不 同 先 验 分 布 的 设置 情况 , 鲜 有 BF 取 值 大 于 
10 (默认 先 验 : n=2; 正 态 先 验 : n=0; 有 信息 先 验 : n=3)， 大 部 分 BFo 取 值 小 于 3 默认 先 验 : 
n=14; 正 态 先 验 : n=31; 有 信息 先 验 : n=29)。 即 使 研究 者 对 于 BFo 所 表示 的 证 据 强度 的 解读 可 
能 存在 差异 (Sch6nbrodt, 2015), 但 是 大 部 分 还 是 将 BFo1 <3 解读 为 微弱 的 支持 零 假 设 的 证 据 ,将 BFo > 
10 解读 为 强 的 支持 零 假 设 的 证 据 (Lee & Wagenmakers, 2014)。 这 一 贝 叶 斯 因子 分 析 结 果 与 国际 期 刊 
的 结果 较为 相似 ， 但 由 于 能 够 提供 较 强 支持 证 据 的 样本 量 小 ， 所 以 无 法 说 明 在 这 一 点 上 国内 期 刊 的 
优势 是 明显 的 。 贝 叶 斯 因子 分 析 的 结果 表明 ， 基 于 得 到 不 显著 结果 的 数据 计算 获得 的 BFo 几乎 无 法 
得 到 强 的 支持 零 假 设 的 证 据 。 但 是 ， 贝 叶 斯 因子 分 析 中 上 检验 对 应 的 样本 量 大 部 分 小 于 100, Aczel 
等 人 (2018) 也 提出 该 结果 部 分 原因 可 能 在 于 心理 学 研究 中 的 样本 量 小 (Button et al., 2013; Stussi et al., 
2018; Mis ke, 2019; 谢 书 书 等 ,2019)。 而 Hoekstra 等 人 (2018) 重 新 分 析 了 医学 领域 的 不 显著 结果 ， 
发 现 当 样本 量 大 时 ， 数 据 得 到 的 支持 零 假 设 的 程度 强 。 
同时 , 我 们 通过 相关 分 析 探 究 p 值 大 小 和 样本 量 大 小 与 BFol 的 相关 关系 。 然 而 本 研究 对 于 BFol 
Ej p 值 和 样本 量 的 相关 分 析 仪 仅 是 简单 的 探索 ， 同 时 相关 分 析 涉 及 的 1 检验 数目 仅 为 39， 因 此 ， 我 
oo 们 和 希望 有 研究 可 以 进一步 详细 探讨 这 些 变量 间 的 关系 ， 得 到 更 可 靠 的 结论 。 对 于 忆 值 和 BFo， 相 关 

系数 为 0.527。 但 与 Aczel 等 (2018) 的 研究 相似 的 是 ， 我 们 同样 发 现 p 值 和 BFo 的 正 相 关 主 要 出 现 
E p 值 较 小 的 不 显著 结果 当中 。 当 p < 0.2 时 ，BFo 会 随 着 p 值 的 增 大 而 增 大 ; 但 是 当 p (ARAN, 
p 值 的 增 大 并 不 会 对 BFol 造成 较 大 的 影响 。 这 也 反应 了 NHST 的 局 限 ， 即 p 值 的 大 小 并 没有 明确 的 
含义 , 不 能 衡量 研究 假设 为 真 或 为 假 的 概率 , 更 大 的 p 值 并 不 意味 着 有 更 强 的 证 据 支 持 零 假设 ( 郝 丽 


等 , 2016; X. Lyu et al., 2020)。Wetzels 等 人 (2011) 的 结果 也 同样 表明 ， 当 p 值 较 大 时 ，BFoi KE p 值 的 


变化 幅度 小 。 除 了 心理 学 研究 , Hoekstra 等 人 (2018) 对 于 医学 研究 中 出 现 的 不 显著 结果 进行 分 析 后 ， 
RI BFo 的 log 形式 与 p 值 存在 线性 相关 ， 即 随 着 p 值 的 增加 ，BFo ME p 值 的 变化 幅度 变 小 。 对 于 
样本 量 与 BFo， 相 关系 数 仅 为 0.243， 说 明 随 着 样本 量 的 增加 ，BFo 的 变化 幅度 小 。 而 p 值 会 受到 
样本 量 的 影响 ( 程 开明 , 李 泗 娥 , 2019)。 即 使 效应 量 很 小 ， 当 样本 量 足够 大 时 ， 也 很 容易 得 至 
果 。 因 此 ， 研 究 结论 不 应 该 只 关注 统计 结果 是 否 显 著 ， 而 是 将 统计 结果 与 效应 的 实际 意义 相 结合 


| 显著 结 


不 过 正如 前 文 所 述 ， 贝 叶 斯 因 
有 待考 证 。 
值得 注意 的 是 ，Aczel 等 人 (2018) 发 现 了 有 10% 的 阴性 陈述 是 基于 贝 叶 斯 因子 进行 统计 推断 ， 而 
非 基 于 NHST 进行 统计 推断 。 而 本 研究 随机 选取 的 500 篇 文章 中 并 没有 涉及 贝 叶 斯 因子 的 使 用 
在 一 定 程度 上 反映 出 国内 研究 者 较 少 了 解 能 够 支持 零 假 设 的 方法 。 因 此 ， 吕 小 康 (2012) 建 议 研究 者 
要 更 多 地 关注 其 他 统计 推断 方法 作为 NHST 的 补充 ， 以 适当 的 难度 向 研究 者 介绍 不 同 统计 方法 背 
后 的 原理 , 从 而 更 全 面 的 了 解 不 同方 法 的 优 劣势 ; 例如 等 价 性 检验 (Equivalence test)(Lakens et al., 2018; 


Lakens et al., 2018; Rogers et al., 1993)， 贝 叶 斯 估计 (Bayesian estimation)(Kruschke, 2011; Kruschke & 


子 分 析 中 的 1 检验 数目 以 及 对 应 样本 量 都 较 小 ， 因 此 本 结果 的 普 适 性 


Liddell, 2018; McElreath, 2018) 和 贝 叶 斯 因子 (Bayes factor)(Wagenmakers et al., 2018; Wagenmakers et 
al., 2011; 胡 传 鹏 等 , 2018)。 有 具体 的 方法 使 用 可 以 参考 陆 春 雷 等 人 (2020) 的 文章 。 

本 研究 与 Aczel 等 (2018) 的 研究 还 存在 一 个 重要 的 区 别 : 本 研究 的 阴性 陈述 分 类 额外 考虑 了 “ 难 
以 判断 ”的 类 别 。 例 如 ， 编 号 为 2052 的 文章 对 于 不 显著 结果 的 表述 为 “ 泛 化 法 任务 中 ,疼痛 表情 仅 
在 秒 上 条 件 延 长 了 主观 时 距 ”， 这 种 表述 隐 含 有 其 他 情况 下 效应 不 存在 或 者 没有 发 现 其 他 情况 下 效 
应 存在 的 意思 ， 这 分 别 对 应 着 错误 解读 和 正确 解读 两 种 情况 。 然 而 我 们 无 法 确定 作者 希望 表达 的 含 
义 ， 因此 将 这 种 描述 分 类 为 “难以 关 糊 的 表述 在 一 定 程度 上 反映 了 研究 者 对 不 显著 结 
陈述 的 忽视 ， 只 关注 显著 结果 的 陈述 。 此 外 ， 我 们 还 发 现 文献 中 用 词 不 规范 的 情况 。 例 如 ， 有 文章 
“在 运动 员 群 体 中 ,高 状态 焦虑 对 加 工效 能 和 正确 率 都 影响 不 大 ” 这 同样 说 明 研究 者 需 
谨慎 地 对 待 不 显著 结 


本 文 虽然 揭示 了 当前 文献 中 存在 着 对 不 显著 结果 的 错误 解读 ， 但 无 法 对 产生 这 些 误解 的 原因 进 
FT 行 探讨 。 其 中 一 个 可 能 的 原因 可 能 是 教科 书 中 关于 p 值 的 解读 存在 错误 。 例 如 ，Cassidy 等 
统计 了 北美 心理 学 教材 关于 p 值 的 解读 ， 发 现 很 大 一 部 分 教科 书 对 p 值 存在 误解 。 而 国内 教科 书 也 
存在 对 于 不 显著 结果 的 错误 解读 。 例 如 ， 张 厚 涌 和 徐 建 平 (2015) 在 第 八 章 写 道 “假设 检验 的 问题 ， 
就 是 要 判断 虚无 假设 Ho 是否 正确 ,决定 接受 还 是 拒绝 (reject) 虚 无 假设 Ho”; FWE (2009) 在 第 七 章 

写 道 “ 如 果 在 原 假设 Ho 成 立 的 条 件 下 ， 根 据 样本 所 计算 的 某 个 统计 量 ， 发 生 的 可 能 性 不 是 很 小 的 
话 ， 那 么 就 接受 原 假设 ”。 这 些 表述 都 认为 基于 NHST 可 以 得 到 接受 零 假设 的 证 据 。 教 科 书 中 此 类 


=e 


二 
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my 
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人 (2019) 


的 错误 解读 可 能 是 国内 研究 者 错误 解读 不 显著 结果 的 原因 之 一 。 
本 研究 也 存在 几 点 局 限 。 第 一 , 负责 编码 的 研究 人 员 共 有 13 名 ,可 能 存在 对 编码 手册 的 理解 上 
存在 差异 ， 例 如 摘 取 的 阴性 陈述 篇 幅 长 短 不 一 致 。 这 意味 着 不 同 编码 者 对 阴性 陈述 的 分 类 标准 的 理 


解 可 能 存在 差异 。 为 了 减 小 这 


二 位 编码 者 校对 第 一 位 编码 者 的 


文 些 差异 的 影响 ， 


每 篇 文章 的 编码 都 至 少 由 两 位 编码 者 进行 编码 ， 由 第 
工作 。 同 时 ， 对 于 研究 关注 的 阴性 陈述 的 分 类 编码 ， 先 由 6 名 编码 


人 员 独 立 完成 ， 再 共同 讨论 存在 分 卜 的 编码 结果 ， 并 通过 Fleiss' kappa 评估 分 类 结果 的 评分 者 一 至 


性 ， 说 明 编 码 结果 较为 可 靠 。 第 二 ， 本 研究 通过 贝 叶 斯 因子 量化 数据 支持 零 假设 的 程度 时 ， 仅 使 用 


了 检验 的 数据 ， 因 此 许多 使 用 相关 系数 等 其 他 统计 检验 的 数据 未 包括 在 贝 叶 斯 因子 计算 之 中 。 但 


是 本 研究 的 结果 与 Aczel 等 人 (2017) 的 结果 模式 一 致 。 他 们 对 于 35515 篇 已 发 表 的 文章 中 出 现 的 基 


于 检验 ,检验 和 相关 分 析 的 显著 结果 重新 计算 了 贝 叶 斯 因子 ， 结 果 发 现 心理 学 研究 中 不 同 的 统 


计 检 验 得 到 的 证 据 强 度 是 类 似 的 ， 因 此 本 研究 中 基于 上 检验 的 数据 在 一 定 程度 上 可 以 推广 到 其 他 的 


统计 检验 中 。 第 三 ， 研 究 仅 统计 了 2017 年 和 2018 


年 的 数据 ， 仅 能 在 一 定 程 度 上 反映 当时 的 情况 ， 


对 于 近 五 年 或 者 近 十 年 情况 以 及 变化 趋势 可 能 无 法 提供 数据 信息 。 第 四 ， 在 临床 试验 中 ， 可 能 错误 


地 接受 零 假 设 进而 推断 两 组 在 某 些 变量 上 是 匹配 的 ， 
可 以 针对 该 问题 进行 全 文 搜索 。 


但 这 些 详细 的 信息 一 般 不 出 现在 摘要 中 ， 将 来 


虽然 本 研究 存在 一 些 局 限 ， 但 是 研究 结果 依然 提示 心理 学 乃至 其 他 实证 科学 的 研究 者 在 研究 中 
需要 重新 审视 不 显著 结果 对 应 的 结论 。 对 不 显著 结果 的 错误 解读 可 能 会 带 来 严重 的 后 果 : 忽略 了 被 
试 间 设 计 中 实验 组 与 控制 组 存在 的 实际 差异 ， 忽 视 小 样本 研究 中 不 显著 结果 可 能 掩盖 了 真实 的 效应 


(Jia et al., 2018)。 错 误解 读 不 显著 结果 也 可 能 是 出 版 偏 倚 的 原因 (Franco et al., 2014; Kühberger et al., 


2014)， 由 此 可 能 诱发 研究 者 的 p 值 操纵 (p-hacking) 行 为 (Head etal.,2015)， 从 而 导致 研究 难以 重复 或 


者 效应 量 严 重 减 小 (Baker, 2016; Klein et al., 2014; Open Science Collaboration, 2015; 胡 传 鹏 等 ,2016)。 
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因此 ， 研 究 者 在 科学 研究 过 程 中 应 加 强 对 不 显著 结果 解读 的 严谨 性 ， 避 免 带 来 消极 后 果 。 


通过 分 析 五 本 中 文 心理 学 期 刊 上 的 500 篇 实证 在 


究 , 本 研究 发 现 中 文 文献 中 阴性 陈述 较为 普遍 ， 


且 比例 高 于 国际 期 刊 ， 表 明 不 显著 结果 在 心理 学 实证 研究 中 有 重要 的 地 位 。 而 在 不 显著 结果 的 解读 
方面 ， 中 文 期 刊 中 的 错误 解读 比例 小 于 国际 期 刊 中 的 比例 。 另 外 ， 贝 叶 斯 因子 的 分 析 表 明文 献 中 不 
显著 结果 的 数据 并 不 能 提供 较 强 的 支持 零 假设 的 证 据 。 总 的 来 说 ， 国 内 研究 者 需要 进一步 加 强 对 不 
显著 结果 的 认识 ， 并 使 用 恰当 的 统计 方法 来 评 佑 数据 对 零 假设 的 支持 程度 ， 以 减少 对 不 显著 结果 的 


错误 解读 ， 提 高 心理 学 研究 的 质量 。 
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Abstract 

P-value is the most widely used statistical index for inference in science. Unfortunately, researchers in 
psychological science may not be able to interpret p-value correctly, resulting in possible mistakes in 
statistical inference. Our specific goal was to estimate how nonsignificant results were interpreted in the 
empirical studies published in Chinese Journals. Frist, We randomly selected 500 empirical research papers 
published in 2017 and 2018 in five Chinese prominent journals (Acta Psychological Sinica, Psychological 
Science, Chinese Journal of Clinical Psychology, Psychological Development and Education, 
Psychological and Behavioral Studies). Secondly, we screened the abstracts of the selected articles and 
judged whether they contained negative statements. Thirdly, we categorized each negative statement into 4 
categories (Correct-frequentist, Incorrect-frequentist: whole population, Incorrect-frequentist: current 
sample, Difficult to judge). Finally, we calculated Bayes factors based on the t values and sample size 
associated with the nonsignificant results to investigate whether empirical data provide enough evidence in 
favor of null hypothesis. Our survey revealed that: (1) 36% of these abstracts (n = 180) mentioned 
nonsignificant results; (2) there were 236 negative statements in the article that referred to nonsignificant 
results in abstracts, and 41% negative statements misinterpreted nonsignificant results; (3) 5.1% ( = 2) 
nonsignificant results can provide strong evidence in favor of null hypothesis (BFo: > 10). The results 
suggest that Chinese researchers need to enhance their understanding of nonsignificant results and use 
more appropriate statistical methods to extract information from non-significant results. 
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